AI资讯新闻榜单内容搜索- LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索:  LLM
原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

近年来,大型语言模型(LLM)通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性,市场对高效快速的 LLM 需求不断增长。

来自主题: AI技术研报
4722 点击    2025-03-20 09:26
Django创造者Simon Willison分享:我如何使用LLM帮我写代码

Django创造者Simon Willison分享:我如何使用LLM帮我写代码

Django创造者Simon Willison分享:我如何使用LLM帮我写代码

近段时间,著名 AI 科学家 Andrej Karpathy 提出的氛围编程(vibe coding)是 AI 领域的一大热门话题。简单来说,氛围编程就是鼓励开发者忘掉代码,进入开发的氛围之中。更简单地讲,就是向 LLM 提出需求,然后「全部接受」即可。

来自主题: AI技术研报
8325 点击    2025-03-19 10:03
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。

来自主题: AI技术研报
4760 点击    2025-03-18 17:14
AI 大模型创业,悄悄盯上年轻人最爱的「谷子经济」

AI 大模型创业,悄悄盯上年轻人最爱的「谷子经济」

AI 大模型创业,悄悄盯上年轻人最爱的「谷子经济」

Neurobo(弈智交互)是一家位于上海的创业公司,获得前百度总裁、微软副总裁陆奇博士创办的奇绩创坛的投资。团队核心成员来自清华大学与日本筑波大学等海内外名校,致力于结合 LLM 与现实场景数据,让二次元用户可以将「谷子」变为随身相伴,随时触达的实体情感伴侣。

来自主题: AI资讯
6647 点击    2025-03-16 20:05
3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

近年来,大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而,要实现其高效部署,精细的超参数优化至关重要。为了探究最佳超参数的规律,我们开展了大规模的实证研究,通过在不同配置上进行网格搜索,我们揭示了一套通用的最优超参数缩放定律(Optimal Hyperparameter Scaling Law)。

来自主题: AI技术研报
8176 点击    2025-03-13 15:15
开启空间智能问答新时代:Spatial-RAG框架来了

开启空间智能问答新时代:Spatial-RAG框架来了

开启空间智能问答新时代:Spatial-RAG框架来了

当涉及到空间推理任务时,LLMs 的表现却显得力不从心。空间推理不仅要求模型理解复杂的空间关系,还需要结合地理数据和语义信息,生成准确的回答。为了突破这一瓶颈,研究人员推出了 Spatial Retrieval-Augmented Generation (Spatial-RAG)—— 一个革命性的框架,旨在增强 LLMs 在空间推理任务中的能力。

来自主题: AI技术研报
4880 点击    2025-03-07 10:34
实测 Manus:首个真干活 AI,中国造(附50个用例 + 拆解)

实测 Manus:首个真干活 AI,中国造(附50个用例 + 拆解)

实测 Manus:首个真干活 AI,中国造(附50个用例 + 拆解)

Manus 的产品名,意思为“手”,来自拉丁文 "mens et manus" —— 知行合一。它体现了一种理念:知识和智慧必须通过身体力行才能对世界产生正向影响。这就是 Manus 的追求,为 LLM 做一双能巧妙调用工具的手,从而扩展人的能力,让你心中的愿景成为现实。 

来自主题: AI资讯
12030 点击    2025-03-06 11:47
探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

在大语言模型 (LLM) 的研究中,与以 Chain-of-Thought 为代表的逻辑思维能力相比,LLM 中同等重要的 Leap-of-Thought 能力,也称为创造力,目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是,面对「创造力」,我们很难构建一个合适且自动化的评估流程。

来自主题: AI技术研报
5954 点击    2025-03-01 22:13